Celem niniejszego projektu jest zbadanie wielowymiarowych zależności między spożyciem alkoholu, towarzyszącym mu stylem życia a wynikami w nauce (GPA) oraz funkcjonowaniem poznawczym studentów uniwersyteckich. Problem ten jest istotny ze względu na powszechność kultury picia w środowisku akademickim i jej potencjalnie negatywny wpływ na karierę edukacyjną. Analiza opiera się na danych ankietowych obejmujących zmienne demograficzne, ekonomiczne (stypendia, zakwaterowanie), społeczne (relacje z rodzicami) oraz behawioralne (częstotliwość imprezowania, absencja na zajęciach). W toku prac dane poddano czyszczeniu oraz imputacji, aby zapewnić rzetelność wnioskowania statystycznego.
W ramach analizy postawiono następujące pytania badawcze:
allowance) stymuluje intensywniejsze życie
towarzyskie, pośrednio wpływając na obniżenie wyników w nauce?W tym etapie surowe dane ankietowe zostały poddane standaryzacji i transformacji, aby umożliwić ich dalszą analizę statystyczną. Wykonano następujące operacje:
sex, grade_12, drinks),
zastępując długie pytania z kwestionariusza (Tabela 1).grade_last_y) nie są błędem, lecz wynikają ze struktury
badania (brak historii studiowania). Zostało to uwzględnione w procesie
imputacji.validate.| Nazwa zmiennej | Opis zmiennej |
|---|---|
| sex | Płeć respondenta |
| grade_12 | Średnia ocen z 12 klasy (GPA) |
| last_year | Rok studiów w roku 2023 |
| faculty | Kierunek studiów |
| grade_last_y | Średnia ocen za rok akademicki 2023 |
| accomodation | Status zakwaterowania (prywatne vs publiczne) |
| allowance | Miesięczny budżet |
| scholarship | Czy student posiadał stypendium |
| studying | Dodatkowe godziny nauki tygodniowo |
| partying | Częstotliwość wychodzenia na imprezy |
| drinks | Liczba drinków spożywanych jednej nocy |
| classes_missed | Liczba zajęć opuszczonych przez alkohol |
| modules_failed | Liczba niezdanych przedmiotów |
| relationship | Czy student jest w związku |
| parents_alcohol_approval | Czy rodzice akceptują spożywanie alkoholu |
| relationship_w_parents | Relacja z rodzicami |
Przed przystąpieniem do uzupełniania danych, przeprowadzono wizualną
inspekcję brakujących wartości przy użyciu pakietów naniar
i ggmice. Pozwoliło to na podjęcie kluczowych decyzji:
sex (płeć), faculty (wydział) oraz
last_year (rok studiów). Zmienne te definiują profil
studenta i są trudne do wiarygodnego odtworzenia metodami
statystycznymi.Pozostałe braki danych (w zmiennych takich jak
allowance, scholarship czy
grades) uzupełniono, wykorzystując algorytm
k-Nearest Neighbors (kNN). Metoda ta polega na
znalezieniu dla każdej niepełnej obserwacji grupy najbardziej podobnych
do niej studentów (“sąsiadów”) i uzupełnieniu braku na podstawie ich
danych.
Dobór parametru \(k=5\):
Decyzja o wyborze 5 sąsiadów wynika z konieczności zachowania równowagi między wariancją a obciążeniem estymatora:
Dla zmiennej grade_last_y zastosowano podejście
hybrydowe: imputacja została skorygowana logicznie dla studentów
pierwszego roku, aby nie przypisywać im ocen z okresu, gdy jeszcze nie
studiowali. Zmienne czysto osobiste (relationship,
parents_alcohol_approval oraz
relationship_w_parents) pozostawiono bez zmian ze względu
na ryzyko błędu predykcji.
W celu potwierdzenia poprawności działania algorytmu wygenerowano
wykresy dla zmiennych allowance oraz
accommodation, które (poza ocenami strukturalnymi)
posiadały największy odsetek braków (>5%).
Zestawienie tych kategorii ze zmienną grade_12 pokazuje,
że wartości uzupełnione (oznaczone kolorem czerwonym) naturalnie wpisują
się w rozkład danych oryginalnych. Brak nienaturalnych skupisk punktów
imputowanych potwierdza, że proces ten nie wprowadził istotnych
zniekształceń do struktury zbioru danych.
W celu identyfikacji wzorców zachowań w populacji studenckiej zastosowano analizę skupień (algorytm k-means) wspartą redukcją wymiarowości (PCA). Pozwoliło to na rzutowanie wielowymiarowych danych na płaszczyznę 2D i wyodrębnienie trzech głównych profili studentów.
Interpretacja wykresu:
Wykres przedstawia przestrzeń zachowań studentów rozpiętą na dwóch głównych wymiarach (składowych głównych):
Zidentyfikowane grupy:
W tej sekcji poddano weryfikacji pytanie badawcze: czy wyższy dochód rozporządzalny stymuluje intensywniejsze życie towarzyskie?
Aby umożliwić obiektywne porównanie grup, wprowadzono dwa parametry analityczne:
partying): 0–4 pkt
(w tym wartość 1.5 dla “Only weekends”).drinks): 0–9
pkt.Wizualizacja wykorzystuje metodę estymacji gęstości jądrowej (2D Kernel Density). Skala kolorystyczna wskazuje na stopień koncentracji obserwacji w danej przestrzeni.
Podsumowanie: Wyższy status ekonomiczny działa jako katalizator życia towarzyskiego. Zwiększając dostępność kosztownych rozrywek, staje się on pośrednim czynnikiem ryzyka dla wyników akademickich poprzez wyraźną zmianę priorytetów czasowych studenta.
W tej części analizy sprawdzono, czy rodzaj zakwaterowania (akademik vs. mieszkanie prywatne) moderuje związek między spożyciem alkoholu a absencją na zajęciach. Weryfikujemy hipotezę, czy “kontrola społeczna” w akademikach lub większa swoboda w mieszkaniach prywatnych wpływają na dyscyplinę studentów.
Powyższa wizualizacja pozwala ocenić siłę związku między piciem a opuszczaniem zajęć w dwóch różnych środowiskach:
Wykres trójwymiarowy służy do weryfikacji hipotezy kompensacji. Badamy interakcję trzech zmiennych jednocześnie: intensywności życia towarzyskiego (oś X), nakładu pracy własnej (oś Y) oraz wyników w nauce (oś Z). Szukamy odpowiedzi na kluczowe pytanie: czy dodatkowe godziny nauki są w stanie zneutralizować negatywny wpływ intensywnego imprezowania na średnią ocen (GPA)?
Analiza przestrzenna pozwala na sformułowanie następujących spostrzeżeń dotyczących strategii studentów:
Analiza wpływu alkoholu na wyniki byłaby niepełna bez uwzględnienia czynników demograficznych. Poniższy wykres weryfikuje, czy płeć studenta różnicuje odporność na akademickie skutki życia towarzyskiego oraz czy dynamika spadku ocen jest uniwersalna dla obu grup.
Wizualizacja ta jest złożona, ponieważ łączy analizę średnich (linie) z pełnym rozkładem danych (wykresy skrzypcowe w tle).
| N | Średnia | Mediana | Odchylenie | Minimum | Maksimum |
|---|---|---|---|---|---|
| 398 | 68.4 | 68 | 9.98 | 30 | 96 |
Przeprowadzona analiza statystyczna zmiennej charakteryzującej wyniki w nauce (GPA) na próbie \(N = 398\) studentów pozwala na sformułowanie następujących wniosków dotyczących struktury osiągnięć akademickich badanej populacji:
1. Przeciętny poziom i typowy wynik Rozkład ocen przypomina klasyczną krzywą Gaussa (rozkład normalny), co jest sytuacją pożądaną w statystyce. Potwierdza to fakt, że średnia ocena (\(\bar{x} = 68.4\%\)) jest niemal identyczna jak mediana (\(Me = 68\%\)). Taka zbieżność oznacza, że grupa jest symetryczna – nie ma tu wyraźnej przewagi osób z wynikami bardzo niskimi ani bardzo wysokimi. Najwięcej studentów (tzw. dominanta) uzyskuje wyniki w przedziale 70–75%, co wskazuje, że standardem w badanej grupie jest poziom “dobry”.
2. Zróżnicowanie wyników (Dyspersja) Wartość odchylenia standardowego (\(SD = 9.98\)) świadczy o umiarkowanym zróżnicowaniu wyników. W praktyce oznacza to, że większość badanej grupy (ok. 68% studentów) mieści się w przedziale wyników od ok. 58% do 78%. Sugeruje to, że poziom wiedzy studentów jest stosunkowo wyrównany, choć oczywiście występują naturalne różnice indywidualne.
3. Rozpiętość osiągnięć Mimo koncentracji wyników wokół średniej, w grupie występuje pełne spektrum osiągnięć (rozstęp wynosi 66 punktów procentowych). Najniższy zanotowany wynik to 30%, a najwyższy 96%. Wskazuje to na obecność w badanej grupie zarówno nielicznych osób zagrożonych niezaliczeniem (widocznych na wykresie jako pojedyncze przypadki poniżej 40%), jak i studentów wybitnych. Są to jednak wyjątki na tle całej populacji.
Podsumowanie: Zmienna GPA posiada pożądane właściwości statystyczne (bliskość rozkładu normalnego, brak drastycznych asymetrii), co czyni ją wiarygodnym wskaźnikiem do dalszych analiz korelacyjnych, np. w kontekście badania wpływu konsumpcji alkoholu na efektywność akademicką.
Zastosowanie wizualizacji typu Raincloud Plot łączącej estymator gęstości jądrowej, wykres pudełkowy oraz surowe dane punktowe pozwala na wielowymiarową ocenę zależności między płcią a efektywnością kształcenia.
1. Przeciętny poziom wyników (Mediana) Analiza środkowych wartości na wykresach pokazuje, że przeciętny poziom ocen jest niemal identyczny dla obu płci. Zarówno kobiety, jak i mężczyźni osiągają medianę wyników w okolicach 68%. Oznacza to, że w badanej grupie płeć nie determinuje tego, czy ktoś uczy się przeciętnie lepiej, czy gorzej.
2. Kształt rozkładu ocen Krzywe widoczne nad wykresami mają bardzo zbliżony kształt dla obu grup. Wskazuje to, że struktura ocen jest analogiczna, zarówno wśród kobiet, jak i mężczyzn najliczniejsze grupy studentów uzyskują podobne wyniki. Nie widać tutaj zjawiska, w którym jedna z płci dominowałaby wyraźnie w grupie najlepszych lub najsłabszych studentów.
3. Zróżnicowanie i rozpiętość wyników Rozrzut punktów pod wykresem pokazuje, że w obu grupach występują bardzo zróżnicowane postawy. Zarówno wśród kobiet, jak i mężczyzn znajdziemy osoby z wynikami bardzo wysokimi, jak i pojedyncze przypadki wyników skrajnie niskich (poniżej 40%). Zakres zmienności jest porównywalny, co potwierdza, że poziom zróżnicowania wiedzy jest niezależny od płci.
Pdsumowanie: Na podstawie analizy wizualnej można postawić hipotezę o braku istotnego statystycznie związku między płcią a wynikami GPA w badanej kohorcie. Ewentualne różnice są subtelne i prawdopodobnie nie mają znaczenia praktycznego.
NIESTYPENDYŚCI | STYPENDYŚCI | |||
|---|---|---|---|---|
Cecha | Mean / N | SD / % | Mean / N | SD / % |
Liczba obserwacji (N) | 353 | 45 | ||
Średnia ocen (GPA) | 68.48 | 10.17 | 67.78 | 8.38 |
PŁEĆ | ||||
Kobieta | 164 | 46.5 | 18 | 40 |
Mężczyzna | 189 | 53.5 | 27 | 60 |
CZAS NAUKI [h] | ||||
0 | 20 | 5.7 | 0 | 0 |
1-3 | 74 | 21 | 8 | 17.8 |
3-5 | 91 | 25.8 | 13 | 28.9 |
5-8 | 71 | 20.1 | 8 | 17.8 |
8+ | 97 | 27.5 | 16 | 35.6 |
IMPREZOWANIE/TYDZIEŃ | ||||
0 | 13 | 3.7 | 4 | 8.9 |
1 raz | 97 | 27.5 | 11 | 24.4 |
Tylko weekendy | 94 | 26.6 | 16 | 35.6 |
2 razy | 76 | 21.5 | 9 | 20 |
3 razy | 57 | 16.1 | 5 | 11.1 |
4+ razy | 16 | 4.5 | 0 | 0 |
1. Charakterystyka osiągnięć akademickich (GPA) Dane wskazują na dużą spójność obu grup w zakresie wyników nauczania. Średnia ocen (GPA) niestypendystów (68,48) jest niemal identyczna z wynikiem stypendystów (67,78). Sugeruje to, że w badanej populacji status stypendialny nie zależy wyłącznie od ocen, co może wskazywać na istotną rolę kryteriów socjalnych w procesie przyznawania wsparcia finansowego.
2. Struktura demograficzna i reprezentacja płci Wyniki ujawniają wyraźną różnicę w rozkładzie płci wśród osób otrzymujących pomoc finansową. W grupie stypendystów odnotowano znaczną przewagę mężczyzn (60%), podczas gdy u niestypendystów podział ten jest bardziej wyrównany (53,5% vs 46,5%). Taka struktura może wynikać ze specyfiki sytuacji materialnej badanych grup lub uwarunkowań systemowych na danym wydziale.
3. Inwestycja czasu w samokształcenie: Nauka Stypendyści wykazują wyższą dyscyplinę i większy nakład pracy własnej. W tej grupie nikt nie zadeklarował braku nauki (0% vs 5,7% u niestypendystów), a ponad 35% osób uczy się powyżej 8 godzin tygodniowo. Świadczy to o silnej motywacji stypendystów do utrzymania dobrych wyników i dbałości o status studenta.
4. Styl życia i organizacja czasu: Imprezowanie Sposób spędzania czasu wolnego przez stypendystów wskazuje na efektywne zarządzanie czasem. Znacznie częściej wybierają oni model odpoczynku skumulowany w weekendy (35,6% vs 26,6%), co pozwala im na pełną koncentrację na obowiązkach akademickich w ciągu tygodnia roboczego.
Podsumowanie: Profil stypendysty wyłaniający się z danych to profil studenta o wysokiej dyscyplinie pracy i umiejętności optymalizacji czasu wolnego. Choć średnie oceny obu grup są porównywalne, stypendyści wyróżniają się większym zaangażowaniem w naukę własną oraz bardziej ustrukturyzowanym stylem życia, co sprzyja stabilności ich wyników akademickich.
Analiza struktury spożycia ujawnia dominujący “styl picia” w badanej grupie. Ilustracja obrazuje deklarowaną liczbę drinków spożywanych podczas pojedynczego wyjścia towarzyskiego. \(N = 398\)
1. Analiza struktury spożycia alkoholu Wizualizacja danych wskazuje na znaczące zróżnicowanie w postawach studentów wobec alkoholu. Najliczniejszą grupę stanowią osoby o wysokim poziomie konsumpcji (5-8 jednostek), które obejmują 28% badanej populacji (110 osób). Sugeruje to, że dominującym modelem w grupie badawczej jest spożycie o charakterze intensywnym.
2. Skala zjawisk skrajnych: Abstynencja vs Ryzyko Zjawisko całkowitej abstynencji ma charakter niszowy i dotyczy jedynie 7% respondentów (26 osób). Na drugim biegunie znajduje się grupa wykazująca ryzykowne wzorce spożycia (8+ jednostek), która jest liczna i obejmuje aż 22% badanych (86 osób).
3. Charakterystyka spożycia umiarkowanego i symbolicznego Grupy deklarujące spożycie symboliczne (1-3 jednostki) oraz umiarkowane (3-5 jednostek) reprezentują po 22% udziału w próbie (odpowiednio 89 i 87 osób). Sumarycznie blisko połowa badanych utrzymuje się w przedziale niskiego i średniego spożycia, co wskazuje na wyraźną polaryzację postaw między studentami zachowującymi kontrolę nad konsumpcją a grupą pijącą intensywnie.
4. Tendencje ogólne i profil grupy Łączny udział osób pijących powyżej 5 jednostek (kategorie wysoka i ryzykowna) wynosi aż 50% całej populacji badawczej. Wynik ten jest istotny z punktu widzenia higieny trybu życia i może korelować z innymi zachowaniami zdrowotnymi oraz wynikami akademickimi, które były analizowane we wcześniejszych sekcjach raportu.
Podsumowanie: Dane przedstawione na piktogramie ukazują model konsumpcji o wysokim stopniu intensywności. Dominacja grup o spożyciu wysokim i ryzykownym (łącznie połowa badanych) przy marginalnym odsetku abstynentów świadczy o szerokiej akceptacji społecznej dla częstego i obfitego spożywania alkoholu w badanej grupie studenckiej.
W celu sprawdzenia zależności między ilością spożywanego alkoholu a średnią ocen (GPA), przeprowadzono analizę korelacji rangowej Spearmana.
-0.086< 0.001Interpretacja statystyczna: Analiza wykazała istotną statystycznie (\(p < 0.001\)), lecz bardzo słabą ujemną korelację.
Podsumowanie: Hipoteza o negatywnym wpływie alkoholu na oceny została potwierdzona statystycznie, jednak siła tego oddziaływania jest marginalna. Samo spożycie alkoholu nie jest głównym wyznacznikiem sukcesu akademickiego – kluczowe wydają się inne czynniki
| Czynnik | OR | Dolna gr. | Górna gr. | p-value |
|---|---|---|---|---|
| Częstotliwość imprezowania | 0.69 | 0.55 | 0.86 | 0.001 |
| Opuszczanie zajęć | 1.23 | 1.01 | 1.49 | 0.040 |
Zastosowana metoda: Regresja Logistyczna dla Zmiennych Porządkowych.
W celu zbadania czynników wpływających na skalę niepowodzeń akademickich, zastosowano model proporcjonalnych szans. Jest to specyficzny rodzaj regresji, dedykowany do analizy zmiennych, które posiadają naturalny porządek, ale nie są liczbami ciągłymi. Zostosowano następujące uporządkowanie: Brak niezdanych przedmiotów < 1 niezdany < 2 niezdane < 3 niezdane.
Opuszczanie zajęć: Zmienna ta jest istotnym statystycznie czynnikiem ryzyka. Każdy wzrost częstotliwości opuszczania zajęć o jeden poziom wiąże się ze wzrostem szansy na gorszy wynik egzaminacyjny (tj. oblanie większej liczby przedmiotów) o 23%.
Częstotliwość imprezowania: Wynik ten jest wysoce istotny i wskazuje na silną, odwrotną zależność. Wartość OR poniżej 1.0 oznacza, że wyższa aktywność towarzyska (przy stałym poziomie nieobecności) wiąże się ze spadkiem ryzyka porażki. Konkretnie, wyższy poziom aktywności towarzyskiej obniża szansę na niepowodzenie o około 31%.
Wniosek: Wynik ten sugeruje, że życie towarzyskie może pełnić funkcję “bufora stresu” lub sprzyjać budowaniu kapitału społecznego (wspólna nauka, wymiana notatek). Studenci aktywni towarzysko radzą sobie lepiej niż osoby izolujące się, pod warunkiem, że imprezowanie nie prowadzi do opuszczania zajęć.
Interpretacja: Metoda łokcia wskazuje na punkt “zagięcia” krzywej przy wartości k = 3. Oznacza to, że po wyodrębnieniu trzech grup, dalsze rozdrabnianie populacji nie przynosi istotnego wzrostu jakości dopasowania. Sugeruje to istnienie trzech głównych archetypów zachowań wśród badanych studentów.
Sprawdzamy, czy środowisko akademika sprzyja gorszemu GPA w porównaniu do mieszkania prywatnego. Została zbadana różnica w wynikach w ostatnim roku dla studentów, którzy są teraz przynajmniej na 2 roku.
| Statystyka Chi² | Stopnie swobody (df) | Wartość p | Metoda |
|---|---|---|---|
| 16.06 | 4 | 0.003 | Pearson’s Chi-squared test |
| Czynnik | Suma kwadratów | df | Statystyka F | p.value | Wartość p |
|---|---|---|---|---|---|
| study_num | 8.6 | 1 | 0.09 | 0.7689417 | 0.769 |
| faculty | 938.4 | 7 | 1.35 | 0.2251489 | 0.225 |